arxiv：2403.06003v1 [CS.RO] 2024年3月9日__

arxiv：2403.06003v1 [CS.RO] 2024年3月9日

可下载资源数量

已经购买

下载数量：1

单价	0 1.0
Coupon	100% 0%
Total	0 1.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

arxiv：2403.06003v1 [CS.RO] 2024年3月9日

¥ 1.0

热度

摘要 - 基于偏好的奖励学习是一种教授机器人和自主系统的流行技术，人类用户如何希望他们执行任务。以前的作品表明，积极合成偏好查询以最大程度地提高有关奖励函数参数的信息增益可提高数据效率。信息增益标准着重于确定奖励函数的所有参数。这可能会浪费，因为许多参数可能会带来相同的奖励，并且许多奖励可能会导致下游任务中相同的行为。取而代之的是，我们表明可以优化学习奖励功能到行为等价类，例如在行为上诱导相同的排名，对选择的分布或其他相关奖励相似的相关定义。我们引入了一个可捕获的框架，该框架可以捕获相似性的这种定义。我们在合成环境中进行的实验，具有域转移的辅助机器人环境以及使用真实数据集的自然语言处理问题，证明了我们的查询方法的出色性能，而不是最先进的信息增益方法。

添加pdf代下载 VIP点击下载文件